智能论文笔记

在视频动作识别中，变压器始终如一地达到最先进的准确性。但是，许多模型对于具有有限硬件资源的平均研究人员来说太大了。在这项工作中，我们探讨了轻量级动作识别的视频变压器的局限性。我们通过3个大规模数据集和10个硬件设备基准测试13个视频变压器和基线。我们的研究是第一个评估了在多个设备上深入了解动作识别模型的效率，并在相同的条件下培训各种视频变压器。我们将当前方法分类为三个类，并显示增强卷积骨架的复合变压器在轻量级动作识别中，尽管缺乏准确性。同时，仅关注模型需要更多的运动建模功能，独立的注意力块模型目前产生的延迟太多。我们的实验得出结论，目前的视频变压器尚未与传统卷积基线的轻量级动作识别，并且先前提到的缺点需要解决，以弥合这种差距。重现我们的实验的代码将公开可用。

translated by 谷歌翻译

VideoLightFormer: Lightweight Action Recognition using Transformers

Raivo Koot , Haiping Lu

分类：计算机视觉 | 机器学习

2021-07-01

有效的视频动作识别仍然是一个具有挑战性的问题。之后的一个大型模型取代了动力学数据集的最先进的地方，但往往缺乏现实世界的效率评估。在这项工作中，我们填补了这种差距并调查了变压器的使用以实现高效行动识别。我们提出了一种小说，轻量级的动作识别架构视频态度。以一种分解方式，我们用变压器仔细扩展了2D卷积时间段网络，同时在整个模型中保持空间和时间视频结构。现有方法经常诉诸两个极端之一，在那里他们要么将巨大的变压器应用于视频功能，或高度汇集视频功能上的最小变压器。我们的方法通过保持变压器模型小，但利用完整的时空特征结构来不同于它们。我们在时间苛刻的史诗 - 厨房-100和某物-V2（SSV2）数据集上的高效率设置中评估视频致力器，并发现它比现有最先进的效率和准确性更好地实现了更好的效率和准确性模型，除了SSV2上的时间换档模块。

translated by 谷歌翻译

自动驾驶汽车是一项不断发展的技术，旨在通过自动操作从车道变更到超车来提高安全性，可访问性，效率和便利性。超车是自动驾驶汽车最具挑战性的操作之一，当前的自动超车技术仅限于简单情况。本文研究了如何通过允许动作流产来提高自主超车的安全性。我们提出了一个基于深层Q网络的决策过程，以确定是否以及何时需要中止超车的操作。拟议的算法在与交通情况不同的模拟中进行了经验评估，这表明所提出的方法可以改善超车手动过程中的安全性。此外，使用自动班车Iseauto在现实世界实验中证明了该方法。

translated by 谷歌翻译